Tối ưu hóa lồi: Điều kiện tối ưu cho các ràng buộc đẳng thức

Hãy tưởng tượng một hệ vật lý, như một sợi dây treo, đang tìm kiếm trạng thái năng lượng thấp nhất. Nếu hai đầu mút được cố định, hệ thống không thể di chuyển tự do. Tối ưu đạt được khi các lực nội tại (gradient của năng lượng thế) được cân bằng hoàn hảo bởi các lực căng do các ràng buộc tạo ra. Trong tối ưu hóa lồi, sự cân bằng này được mô tả bởi điều kiện KKT cho các ràng buộc đẳng thức.

Hình học của tính khả thi

Với bài toán lồi có các ràng buộc đẳng thức $Ax=b$, một vectơ $v \in \mathbf{R}^n$ là một hướng khả thi nếu $Av = 0$. Điều này nghĩa là di chuyển theo hướng $v$ sẽ duy trì ràng buộc: $A(x+v) = b$ nếu $Ax=b$.

Để $x^*$ là điểm tối ưu, đạo hàm theo hướng $\nabla f(x^*)^T v$ phải bằng 0 với mọi hướng khả thi $v$ trong không gian nghiệm $\mathcal{N}(A)$. Điều này ngụ ý rằng gradient $\nabla f(x^*)$ phải vuông góc với $\mathcal{N}(A)$, dẫn đến sự tồn tại của các thừa số Lagrange.

Điều kiện tối ưu

Một điểm $x^*$ là tối ưu nếu và chỉ nếu tồn tại một vectơ $\nu^* \in \mathbb{R}^p$ sao cho:

$\nabla f(x^*) + A^T \nu^* = 0$

Điều này tạo thành một hệ phương trình tuyến tính đặc trưng cho sự cân bằng giữa sự giảm của hàm mục tiêu và mặt ràng buộc.

Gradient chiếu

Phép chiếu phép chiếu Euclid của gradient âm $-\nabla f(x)$ lên không gian nghiệm $\mathcal{N}(A)$ được xác định bởi:

$\Delta x_{\text{pg}} = \text{argmin}_{Au=0} \| -\nabla f(x) - u \|_2$

Vectơ này biểu diễn hướng giảm khả thi "tốt nhất". Quan trọng là, $x$ là tối ưu nếu và chỉ nếu $\Delta x_{\text{pg}} = 0$.

Hệ thống KKT và các tính chất ma trận

Chúng ta có thể giải đồng thời cho bước Newton và các biến đối ngẫu bằng cách sử dụng hệ khối:

$$\begin{bmatrix} I & A^T \\ A & 0 \end{bmatrix} \begin{bmatrix} v \\ w \end{bmatrix} = \begin{bmatrix} -\nabla f(x) \\ 0 \end{bmatrix}$$

Lưu ý về tính chất phổ của ma trận: Ma trận KKT là đối xứng nhưng không xác định. Nếu ma trận khả nghịch, nó có đúng $n$ giá trị riêng dương và $p$ giá trị riêng âm. Điều này ngụ ý rằng điểm tối ưu $(x^*, \nu^*)$ là một điểm yên ngựa của hàm Lagrangian $L(x, \nu) = f(x) + \nu^T(Ax-b)$, chứ không phải là một cực tiểu cục bộ đơn giản trong không gian nguyên – đối ngẫu kết hợp.

📌 Nguyên lý cốt lõi

Tối ưu trong các bài toán có ràng buộc đẳng thức đòi hỏi gradient phải vuông góc với không gian nghiệm của ràng buộc. Điều này giúp chúng ta hiểu bước Newton như là nghiệm của một xấp xỉ tuyến tính của các điều kiện KKT.

CÂU HỎI 1

Điều gì xác định một 'hướng khả thi' $v$ tại một điểm $x$ với ràng buộc $Ax = b$?

$Av = b$

$Av = 0$

$\|v\|_2 = 1$

$A^T v = 0$

CÂU HỎI 2

Giải thích vật lý của điều kiện $\nabla f(x^*) + A^T \nu^* = 0$ là gì?

Gradient bằng 0 theo mọi hướng.

Hàm mục tiêu đã đạt cực tiểu toàn cục mà không có ràng buộc.

Lực nội tại (gradient) được cân bằng bởi lực căng từ các ràng buộc.

Các thừa số Lagrange phải đều dương.

CÂU HỎI 3

Nếu ma trận KKT khả nghịch, ký hiệu giá trị riêng của nó là gì?

Tất cả $n+p$ giá trị riêng đều dương.

$n$ giá trị riêng dương và $p$ giá trị riêng âm.

$p$ giá trị riêng dương và $n$ giá trị riêng âm.

Tất cả các giá trị riêng đều thực và khác 0, nhưng dấu phụ thuộc vào $f(x)$.

CÂU HỎI 4

Gradient chiếu $\Delta x_{\text{pg}}$ bằng 0 nếu và chỉ nếu:

Gradient $\nabla f(x)$ bằng 0.

Điểm $x$ nằm trong không gian nghiệm của $A$.

Điểm $x$ thỏa mãn các điều kiện tối ưu bậc nhất.

Ma trận $A$ là vuông và khả nghịch.

CÂU HỎI 5

Trong hệ thống $\begin{bmatrix} I & A^T \\ A & 0 \end{bmatrix} \begin{bmatrix} v \\ w \end{bmatrix} = \begin{bmatrix} -\nabla f(x) \\ 0 \end{bmatrix}$, $v$ đại diện cho điều gì?

Điểm tối ưu $x^*$.

Vectơ thừa số Lagrange.

Gradient chiếu $\Delta x_{\text{pg}}$.

Dư số nguyên $Ax - b$.